Vers une Automatisation de la Construction de Variables pour la Classification Supervisée

نویسندگان

  • Marc Boullé
  • Dhafer Lahbib
چکیده

Résumé. Dans cet article, nous proposons un cadre visant à automatiser la construction de variables pour l’apprentissage supervisé, en particulier dans le cadre multi-tables. La connaissance du domaine est spécifiée d’une part en structurant les données en variables, tables et liens entre tables, d’autre part en choisissant des règles de construction de variables. L’espace de construction de variables ainsi défini est potentiellement infini, ce qui pose des problèmes d’exploration combinatoire et de sur-apprentissage. Nous introduisons une distribution de probabilité a priori sur l’espace des variables constructibles, ainsi qu’un algorithme performant de tirage d’échantillons dans cette distribution. Des expérimentations intensives montrent que l’approche est robuste et performante.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...

متن کامل

Une méthode optimale d'évaluation bivariée pour la classification supervisée

Résumé. En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive joint...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Une nouvelle approche pour la classification non supervisée en segmentation d'image

Résumé. La segmentation des images en régions est un problème crucial pour l’analyse et la compréhension des images. Parmi les approches existantes pour résoudre ce problème, la classification non supervisée est fréquemment employée lors d’une première étape pour réaliser un partitionnement de l’espace des intensités des pixels (qu’il s’agisse de niveaux de gris, de couleurs ou de réponses spec...

متن کامل

Un Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables

Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013